中国的三项研究表明,经典计算机将彻底瓦解谷歌的量子霸权
光子盒研究院出品
NISQ时代的一个重要里程碑是谷歌53量子比特“悬铃木”量子处理器,它可以在200秒内执行随机电路采样任务,而同样的任务估计需要在Summit上运行10000年。最近在祖冲之2.0(56量子比特)和祖冲之2.1(60量子比特)量子处理器上的两次实验刷新了这一记录。
另一方面,经典模拟算法和底层硬件也不断改进。例如,2020年,阿里巴巴量子计算团队使用张量网络方法估计[1],在Summit超级计算机上模拟“悬铃木”的53量子比特和20层循环的电路采样只需要20天。最近祖冲之2.0论文估计,使用Summit对“悬铃木”的实验进行经典模拟采样需要耗费16天,而对“祖冲之2.0”的实验进行经典模拟采样则需要耗费8年。
在2021年3月的一篇arXiv论文中,中国科学院的张潘及其学生提出了一种big-head张量网络方法[2],使用60个英伟达GPU组成的小型计算集群在5天的时间内完成了谷歌的量子霸权实验。线性交叉熵基准保真度(FXEB)为0.739,远高于谷歌的结果。
如果按John Preskill最早的定义,量子计算机计算的速度达到超级计算机的1010倍以上才算实现量子霸权,那么谷歌的量子霸权实际上早就打破了。但是在绝对时间方面,还没有一项研究证明经典计算机可以超过悬铃木的200秒。而最近中国的三项研究表明,经典计算机模拟谷歌随机电路采样的耗时缩短到200秒以下已经不存在任何障碍。
在10月27日的一篇arXiv论文[3]中,国家超算中心(无锡)在新的神威超级计算机上开发了一个基于张量的高性能随机量子电路模拟器,将谷歌“悬铃木”的模拟采样时间从之前宣称的1万年缩短至304秒。
同一个团队的另一项研究[4]显示,基于定制张量网络收缩算法在神威超级计算机执行采样任务需要一周的时间,并使用新一代神威重新定义了“量子霸权”基线。
在这两项研究以及今年3月中科院的研究中,获得的都是相关样本。然而,如果模拟的目标不仅是通过XEB测试,还满足获得不相关样本的约束,就像在“悬铃木”实验中一样,那么张量网络需要重复收缩数千次,使得计算成本在实践中难以承受。
为此,中国科学院的张潘带领其团队提出了一种新的方法来经典地解决这个问题,只需收缩相应的张量网络一次,并且在获得大量具有目标保真度的不相关样本方面比现有方法要高效得多。对于具有53个量子比特和20层循环的“悬铃木”量子电路,他们在一个有512个GPU的计算集群上花费了大约15个小时。作者估计,如果他们的算法能够在具有百亿亿次性能的现代超级计算机上高效实现,理想情况下模拟将花费几十秒,这比谷歌的量子硬件要快。
张潘团队的方法基于从量子电路转换而来的三维张量网络
在产生大量不相关的近似样本方面,张潘团队的算法比现有算法效率更高。在n = 53个量子比特、m = 20层循环的悬铃木电路上,使用512个GPU在大约15小时内成功生成了保真度F ≈ 0.0037的L = 220个近似样本。作者表示,这是第一次经典地解决了n = 53个量子比特和m = 20层循环的悬铃木“量子霸权”电路(保真度大于谷歌的硬件样本)的采样问题。
他们的模拟方法具有几个区别于现有方法的显著特征:
(1)在电路中的几个位置引入特定的泡利误差
(2)通过挖洞和张量切片,探索张量网络中的低秩结构。利用“悬铃木”电路fSim门的特殊性质,可以打破网络中的许多边,大大降低计算成本,同时仅略微降低保真度。
(3)本文的收缩方法,称之为具有Z字形收缩顺序的稀疏状态方法。它允许仅使用具有受限空间复杂度的单次收缩(本文中为230)来获得大量(L×l)个位串的振幅,即稀疏状态
与今年3月提出的big-head张量网络方法[2]相比,本文提出的算法可以使用单次收缩产生大量不相关样本,而不是[2]中的大量相关样本。换句话说,通过一次收缩,[2]中的big-head方法精确地模拟了电路输出分布的一个小的子空间,而本文提出的方法以目标保真度近似地模拟了整个空间。此外,尽管[2]中的方法可以通过XEB测试,但其性能对XEB的定义非常敏感。在这里,他们直接使用保真度,而不需要引入XEB作为保真度的代理。
如前文所述,张潘团队将具有53个量子比特和20层循环的悬铃木量子电路转换为三维张量网络
图3 将三维张量网络分为两部分。
他们在
在每个子任务中,vhead被分割成大小为229的张量,作为
整个计算(用于完成216个子任务)的整体时间复杂度为3.489 × 1018,略低于之前计算大批量相关位串振幅的工作[2],以及计算小批量相关位串的工作[1]。
为了提高GPU效率,在收缩期间采用了分支合并策略。分支合并后,
他们使用Complex64作为收缩中的数据类型。
在文章最后,作者表示,使用更适合张量收缩的库,如cuQuantum库,预计计算效率可以大大提高。此外,随着百亿亿次超级计算机(每秒1018次浮点运算)即将研制成功,如果本次模拟能够在百亿亿次超级计算机上高效实现,原则上整体模拟时间可以减少到几十秒,比谷歌的硬件实验还要快。
参考文献:
[1]https://arxiv.org/abs/2005.06787
[2]https://arxiv.org/abs/2103.03074
[3]https://arxiv.org/abs/2110.14502
[4]https://arxiv.org/abs/2111.01066
[5]https://arxiv.org/abs/2111.03011